Hrvatski jezični korpus
Hrvatski jezični korpus (HJK) je korpus tekstova hrvatskoga jezika koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).
Hrvatski jezični korpus je u početku financiralo Ministarstvo znanosti, obrazovanja i športa Republike Hrvatske unutar istraživačkoga programa Hrvatske jezične mrežne riznice pod brojem 0212010 iz svibnja 2005. godine. U drugoj razvojnoj fazi, od 2007. godine, HJK se dalje razvijao kao dio istraživačkoga programa Hrvatske jezične riznice koji je također financirao MZOŠ (cf. Ćavar and Brozović Rončević, 2012[1]). U tom programu (voditeljica Dunja Brozović Rončević) HJK je razvijan kroz rezultate rada znanstvenih projekata Hrvatske jezične riznice. Voditelji HJK-a su Dunja Brozović Rončević i Damir Ćavar.
Jedan od glavnih ciljeva HJK-a jest stvoriti javno dostupan korpus hrvatskoga jezika obilježen na više razina: lematizacijski, morfološki, morfosintaktički, fonološki i sintaktički. Osim onih pisanih na standardnome hrvatskom jeziku, HJK obuhvaća i tekstove iz raznih dijakronijskih faza hrvatskoga jezika, kao i digitalizirane rukopise te rječnike hrvatskoga jezika.
Sakupljeni i digitalizirani tekstovi Hrvatskoga jezičnog korpusa obilježeni su s pomoću standarda TEI XML u inačici P5. HJK trenutačno obaseže više od 90 milijuna pojavnica. Korpusu se pristupa preko Philologicova[2] sučelja (vidi The ARTFL Project,[3] Department of Romance Languages and Literatures, University of Chicago). Podijeljen je u različite potkorpuse, a za specifične istraživačke potrebe stvaraju se i prilagođeni potkorpusi.
HJK je sastavljen od odabranih tekstova hrvatskoga jezika pokrivajući razne funkcionalne stilove i žanrove. Potkorpus standardnoga jezika obuhvaća pisane izvore iz razdoblja početaka standardizacije hrvatskoga jezika, tj. od druge polovice 19. stoljeća. Hrvatski jezični korpus sastoji se od sljedećih tekstova:
- temeljnih djela hrvatske književnosti (romani, novele, crtice, drame, pjesme, eseji),
- beletristike,
- sveučilišnih udžbenika i znanstvenih publikacija raznih disciplina,
- školskih priručnika,
- prevedenih djela vrsnih hrvatskih prevoditelja,
- mrežnih časopisa i novina,
- knjiga iz predstandardizacijskoga perioda hrvatskoga jezika prilagođenih suvremenome jeziku.
Izgradnja HJK-a omogućena je suradnjom sa sljedećim ustanovama:
- Školska knjiga
- Hrvatska akademija znanosti i umjetnosti (HAZU)
- Matica hrvatska, Stoljeća hrvatske književnosti Arhivirana inačica izvorne stranice od 4. srpnja 2011. (Wayback Machine)
- ↑ Ćavar and Brozović Rončević, 2012
- ↑ Philologic
- ↑ The ARTFL Project. Inačica izvorne stranice arhivirana 4. prosinca 2009. Pristupljeno 21. srpnja 2011. journal zahtijeva
|journal=
(pomoć)
- Hrvatski jezični korpus (HJK) i Hrvatska jezična riznica Instituta za hrvatski jezik i jezikoslovlje
- Institut za hrvatski jezik i jezikoslovlje
- Hrvatski nacionalni korpus, još jedan korpus hrvatskoga jezika koji je izgrađen u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu.